JSON Prompt จำเป็นจริงหรือ? ทดสอบกับ Gemini Banana Pro
Table of Contents
ผมว่าหลายคนน่าจะเคยเห็นการแจก prompt ผ่านตาบน feed ของ Facebook หรือ X กันอยู่บ้าง โดยเฉพาะไอ้ prompt ที่มันดูยึกยือๆ ที่เรียกกันว่า “JSON Prompt” ที่พอเอามาใช้ gen รูป แล้วก็ผลลัพธ์ที่ออกมามันดูอลังการอย่างน่าประหลาดใจ สวยๆทั้งนั้น
ซึ่งมันก็ทำให้ผมสงสัยแหละว่า ในความเป็นจริง Model ที่มันฉลาดขึ้น เก่งขึ้นทุกวันเนี่ย มันจำเป็นต้องใช้ JSON Prompt จริงๆ หรือเปล่า โดยเฉพาะอย่างยิ่งตอนนี้ที่ Google ปล่อย Gemini Banana Pro ออกมา เราก็เห็นว่าพลังความสามารถของมันน่ะมันเหลือล้นมากๆ แล้วก็เข้าใจภาษาคนได้ดีสุดๆ ผมก็เลยอยากจะทดลองอะไรบางอย่างเพื่อพิสูจน์ว่า “ตกลงแล้วเนี่ย JSON Prompt มันจำเป็นจริงๆ ไหม?” มา เริ่มกัน
เริ่มจากผมไปหา Post บน X เป็น account ชื่อ “IamEmily2050” ที่เขาจะชอบแจก JSON Prompt อยู่บ่อยๆ ที่ผมเลือกมาตรงนี้มันเป็น prompt ใช้ gen ภาพเซลฟี่ K-pop idol ขึ้นมานะครับ
JSON prompt นี้มีอะไรบ้าง #
ใน prompt จะเขียนรายละเอียดไว้เยอะมาก ไม่ว่าจะเป็น:
- style ของภาพว่าจะออกมาแบบไหน
- look ของตัวแบบนะครับ
- camera มุมกล้อง ไปจนถึง sensor กล้องเป็นยังไง (เว่อร์ไป๊)
- scene ฉากที่ใช้ สถานที่ สภาวะแวดล้อม ต่างๆ นานา ครับ
- subject ตัวแบบเนี่ยก็ลงลึกถึงรายละเอียดเลยว่าแบบ Subject เนี่ยเป็นเพศอะไร เป็นเชื้อสายอะไร เป็นแบบ K-Pop Idol Style
- expression มีการแสดงอารมณ์แบบไหน
- action ว่ากำลังทำปากเผยอ แล้วก็แลบลิ้นนิดนึง
- make up มีการแต่งหน้าแบบไหน
- attire เสื้อใส่อย่างไร
- accessory มีเครื่องประดับอะไรบ้าง
- สีด้วย Color Grade เป็น Neutral, Slightly Warm
- แล้วก็มีใส่พวก Negative Prompt ครับ ที่บอกว่าจะต้องห้ามทำอะไร ห้ามใส่อะไรไปบ้างในนี้
ซึ่งค่อนข้างใหญ่เลย แล้วก็ถ้านับตัวอักษรรวมๆก็ 2,700 กว่าตัว หรือประมาณ 300 คำ ถือว่ายาวม๊ากกก (ขี้เกียจอ่าน แต่อ่านให้แล้ว ใครอยากดู prompt เต็มๆไปอ่านที่ comment นะครับมันยาวมากๆ)
1️⃣ JSON prompt ตามต้นฉบับ #
ภาพที่ 1 ครับ ผมลองเอา JSON Prompt จากบน X มาใช้ ได้ภาพที่มีรายละเอียดครบถ้วน แล้วก็ตรงตามที่เห็นใน post เลย ทั้งนางแบบเป๊ะ, มุมกล้อง, ชุด, สีหน้า, แลบลิ้น และฉาก มันอาจจะไม่เหมือนกันเป๊ะครับ แต่ว่ารายละเอียดจะมีลักษณะตรงตามที่ระบุครบถ้วน (ก็แหงแหละ prompt เดียวกันนี่เนอะ)
2️⃣ ปรับจาก JSON ยาวๆ เหลือ 3 หัวข้อสั้นๆ #
คราวนี้เพื่อพิสูจน์ครับว่าจริงๆ มันจำเป็นต้อง JSON ไหม ผมก็เลยเอา prompt ตัวเนี้ยะ ไป:
- ให้ Gemini แปลงมันออกมาอีกที เป็น Bullet List
- ตัดพวก negative prompt ที่ (คิดว่า) ไม่จำเป็นออกไปเลย เอาแค่รายละเอียดที่อยากได้พอ
- ก็ขอให้แบบเปลี่ยน Bullet List นี้ ให้กลั่นออกมาเหลือแค่ 3 Topic ใหญ่ๆ ก็คือเป็น Subject & Style, Camera & Composition แล้วก็ Scene
ซึ่งคำเนี่ยจาก 300 กว่าคำ หรือจาก 2,700 ตัว ตอนนี้ลดลงเหลือแค่ 700 ตัวอักษร หรือประมาณ 104 คำ (ลดลงเกินครึ่ง)
ผลลัพธ์ที่ออกมาก็เป็นตามภาพที่ 2 เรียกว่าไม่ได้ต่าง เหมือนกันเด๊ะ อาจจะด้วยความที่ Model มันเก่งมากๆอยู่แล้วในยุคนี้ ก็เลย… นั่นแหละครับ ชัดเจน!!!
และนี่คือ prompt ใหม่แบบสั้นๆ:
Subject & Style: Young East Asian female with K-Pop idol aesthetic. Long dark brown wavy hair with silver clip, dangling heart earrings. Flawless glass skin with dewy finish, rosy cheeks, glossy pink lips. Playful expression looking directly at camera, mouth slightly open with tongue out. Grey pinstriped halter top with white collar and silver button details.
Camera & Composition: Extreme close-up selfie angle, 85mm portrait lens with shallow depth of field, sharp focus on eyes. High-resolution photorealistic digital photography.
Scene: Indoor studio with soft even beauty lighting, clear eye catchlights, minimal shadows. Plain neutral grey background blurred. Vibrant warm tones suitable for promotional use.
ทั้งเบา และอ่านได้ง่ายๆ เลยใช่ไหมล่ะ
3️⃣ แล้วถ้าเป็นภาษาไทยล่ะ #
สุดท้ายผมลองเอา prompt จากข้อ 2 มาเปลี่ยนเป็นภาษาไทยนะครับ โดยใช้ Gemini นั่นแหละช่วยแปลออกมาง่ายๆ สั้นๆ
ผลลัพธ์ก็อย่างที่เห็นในภาพ ไม่ได้แตกต่างกันมาก จริงอยู่ว่ารายละเอียดอาจจะมีหายไปบ้างเล็กน้อย (ตามที่เราตัดไป) แต่องค์ประกอบหลักๆ ทุกอย่างยังครบเหมือนเดิม ทั้งตัวแบบ สีหน้า ชุด ตามภาพที่ 3 เลยครับ
และนี่คือ prompt ภาษาไทย:
ตัวละครและลุค: สาวเอเชียตะวันออกสไตล์ไอดอลเคป็อป ผมยาวสีน้ำตาลเข้มลอนฟู มีกิ๊บเงินและต่างหูหัวใจ ผิวแก้วเงางาม แก้มแดงระเรื่อ ปากชมพูมันวาว สีหน้าขี้เล่นมองตรงกล้อง ปากเผยอเล็กน้อยแลบลิ้น ใส่เสื้อฮอลเตอร์ลายทางสีเทา คอขาวมีกระดุมเงิน
กล้องและองค์ประกอบ: มุมเซลฟี่สูงเล็กน้อย ภาพระยะใกล้มาก เลนส์ 85mm โฟกัสคมที่ดวงตา ความละเอียดสูงแบบสมจริง
ฉาก: สตูดิโอในร่ม แสงนุ่มสม่ำเสมอ เงาน้อย พื้นหลังสีเทาเบลอ โทนสีอบอุ่นสดใส เหมาะสำหรับโปรโมท
สั้นเหมือนเดิม อ่านก็ง่าย จะเอาไปแก้เองก็ง่าย
สรุปแบบสั้นๆ #
จริงๆ แล้ว JSON Prompt ไม่ได้จำเป็นสำหรับการใช้ gen ภาพกับ model เก่งๆ อย่าง Nano Banana เลยครับ เราแค่ prompt ธรรมดาๆ เราใช้แค่คำสั้นๆ หรือเป็นประโยค เพื่อบอกในสิ่งที่เราอยากได้ก็พอ
แล้ว JSON Prompt มันเกิดขึ้นมาทำไมอ่ะ มันมีประโยชน์อะไรเหรอ เขาจะทำให้มันยาวไปทำไมใช่ไหมฮะ? ถ้าในมุมของผม ผมมองว่า JSON Prompt มันมีประโยชน์ แต่มันมีประโยชน์ในแง่ของการเขียนเป็นโปรแกรม สำหรับ developer ที่อาจจะทำหน้า Web Form ที่ให้ user เลือกติ๊ก หรือเลือกว่าอยาก gen องค์ประกอบยังไงจากหลายๆตัวเลือกอ่ะครับ การเลือกเปลี่ยนข้อมูลจาก Form มาเป็น JSON เนี่ย มันทำง่ายกว่า แล้ว dev ก็ส่ง JSON เนี้ย ไปให้ Gemini เพื่อ Gen ภาพออกมาได้เลย มันก็จะสะดวกในแบบนั้น
แต่ในแง่ของมนุษย์ ไม่จำเป็นนะครับ เราก็ใช้เป็น Text ธรรมดานี่แหละ จะเป็นภาษาไทย ภาษาอังกฤษ ก็พิมพ์บอกไปเถอะ ผลลัพธ์ไม่ได้ต่างกัน สุดท้ายก็คือ อยากได้รายละเอียดอะไร บอกมันให้เยอะที่สุดเท่าที่จะบอกได้
“ใส่หลายแซ่บหลาย” เหมือนผงชูรสแหละครับ
อ้างอิง: